7.5.1 2D 평면 파지에서 6-DoF 파지로: DexNet부터 6-DOF GraspNet까지

로봇 조작(Robotic Manipulation)의 역사에서 물체를 안정적으로 파지(Grasping)하는 기술은 가장 근원적이면서도 난해한 문제로 여겨져 왔다. 특히, 단순히 물체의 위치를 파악하는 것을 넘어, 로봇 팔(Manipulator)이 물체에 접근하여 물리적인 접촉을 형성하고 외부의 외란(Disturbance)에도 물체를 놓치지 않는 ’강건한 파지(Robust Grasping)’를 수행하는 것은 인지(Perception)와 제어(Control)가 고도로 통합되어야 하는 영역이다. 본 절에서는 로봇 파지 기술이 어떻게 2차원 평면 기반의 제한적인 접근법에서 3차원 공간의 6자유도(6-DoF) 파지로 진화해 왔는지 그 기술적 궤적을 심층적으로 분석한다.

이 진화의 과정은 단순히 차원이 증가한 것이 아니라, 데이터를 바라보는 관점의 변화(합성 데이터 대 실세계 데이터), 학습 방법론의 전환(판별 모델 대 생성 모델), 그리고 파지 품질을 정의하는 물리적 모델의 고도화를 의미한다. 우리는 이 여정의 핵심 이정표인 UC 버클리(UC Berkeley)의 Dex-Net 시리즈, NVIDIA의 6-DOF GraspNet, 그리고 상하이 교통대(SJTU)의 GraspNet-1Billion을 중심으로 파지 기술의 기술적 깊이와 그 함의를 논의한다.

1. 파지 패러다임의 전환: 평면에서 공간으로

초기 로봇 파지 연구는 복잡한 3차원 공간을 2차원 평면으로 단순화하여 접근하는 전략을 취했다. 이는 당시 센서 기술의 한계와 연산 능력의 부족, 그리고 데이터의 부재에 기인한다. 소위 ‘평면 파지(Planar Grasping)’ 또는 ’2.5D 파지’라 불리는 이 접근법은 카메라가 물체를 수직 아래로 내려다보는 탑다운(Top-down) 시점을 가정한다.

1.1 평면 파지의 기하학적 한계와 정의

평면 파지에서 파지 포즈(Grasp Pose) $g$ 는 주로 다음과 같은 4자유도(4-DoF) 또는 단순화된 형태로 정의된다:
$g = (x, y, z, \phi)$
여기서 $(x, y, z)$ 는 그리퍼(Gripper)의 중심 좌표이며, $\phi$ 는 수직 축(Z축)을 기준으로 한 회전각(Yaw)을 의미한다. 이러한 정의는 그리퍼가 항상 테이블 표면에 수직으로 접근한다고 가정하므로, 롤(Roll)과 피치(Pitch) 회전은 고려되지 않는다.

이 방식은 컨베이어 벨트 위의 물체를 집어 올리거나, 테이블 위에 흩어지지 않고 놓여 있는 물체를 조작하는 데에는 매우 효과적이다. 하지만 이 모델은 다음과 같은 결정적인 한계를 가진다:

접근 각도의 제한: 물체의 측면이나 복잡한 기하학적 구조(예: 컵의 손잡이가 옆으로 누워 있는 경우)에 접근할 수 없다. 이는 로봇이 물체와 상호작용할 수 있는 어포던스(Affordance)의 범위를 극도로 제한한다.
충돌 회피의 어려움: 복잡하고 정돈되지 않은 환경(Cluttered Scene)에서 수직 접근은 다른 물체와의 충돌을 유발할 가능성이 크다.
작업 유연성 부족: 파지 이후의 조작(Post-grasp manipulation)을 고려할 때, 6-DoF 포즈 정보의 부재는 로봇의 동작 계획(Motion Planning)에 제약을 가한다.

1.2 6-DoF 파지의 대두와 난제

6-DoF 파지는 물체에 대한 접근을 $SE(3)$ 공간으로 확장한다. 파지 포즈는 위치와 방향을 포함하여 다음과 같이 정의된다:
$g = (x, y, z, r_x, r_y, r_z) \in \mathbb{R}^3 \times SO(3)$
이러한 확장은 로봇이 임의의 방향에서 물체에 접근할 수 있게 하여 파지 성공률과 유연성을 비약적으로 향상시킨다. 그러나 이는 탐색 공간(Search Space)의 폭발적인 증가를 의미한다. 평면 파지가 이미지 픽셀 공간에서의 탐색 문제로 귀결될 수 있다면, 6-DoF 파지는 고차원 공간에서의 복잡한 최적화 문제 혹은 생성(Generation) 문제로 정의된다. 이러한 난제를 해결하기 위해 등장한 것이 바로 딥러닝 기반의 데이터 중심 접근법(Data-Driven Approach)들이다.

2. 합성 데이터와 강건한 파지의 서막: Dex-Net (Dexterity Network)

UC 버클리의 Ken Goldberg 교수 팀이 주도한 Dex-Net(Dexterity Network) 프로젝트는 딥러닝을 로봇 파지에 적용하는 데 있어 ’데이터 부족’이라는 고질적인 문제를 ’합성 데이터(Synthetic Data)’와 ’도메인 무작위화(Domain Randomization)’로 해결한 기념비적인 연구이다. Dex-Net은 2.0에서 4.0으로 진화하며 평면 파지의 정점을 찍고, 이종 그리퍼(Ambidextrous Grasping)로 확장해 나갔다.

2.1 Dex-Net 2.0: 물리학 기반 데이터 생성과 GQ-CNN

Dex-Net 2.0은 수천 개의 3D CAD 모델을 사용하여 수백만 개의 합성 포인트 클라우드와 파지 데이터를 생성하고, 이를 통해 GQ-CNN(Grasp Quality Convolutional Neural Network)을 학습시키는 파이프라인을 제안했다.

2.1.1 데이터 생성 파이프라인: 시뮬레이션에서 지식을 캐다

Dex-Net 2.0의 핵심은 사람이 일일이 라벨링할 필요 없이, 물리학 엔진을 통해 파지 성공 여부를 분석적으로 계산한다는 점이다. 이는 데이터의 양적 확장을 가능하게 한 원동력이다.

3D 모델 데이터베이스: 1,500개 이상의 3D 객체 모델을 활용한다. 이 모델들은 Kitware, 3DNet 등 다양한 소스에서 수집되었으며, 물리적 속성(질량, 마찰 계수 등)이 부여된다.
파지 샘플링 및 분석 (Grasp Sampling & Analytic Metric): 각 객체에 대해 평행 그리퍼(Parallel-jaw gripper)의 후보 파지들을 표면 법선 벡터를 기반으로 샘플링한다. 그 후, ’Force Closure’와 같은 물리학적 척도를 사용하여 해당 파지가 외력(중력 등)에 저항하여 물체를 고정할 수 있는지(Robustness)를 평가한다. Dex-Net은 특히 Ferrari-Canny 지표를 사용하여 파지의 품질을 정량화한다. 이 지표는 파지 접촉점들이 형성하는 렌치 공간(Wrench Space)의 볼록 껍질(Convex Hull) 내에 원점을 포함하는 가장 큰 구의 반지름으로 정의되며, 이는 외란에 대한 저항력을 의미한다.
깊이 이미지 렌더링 (Depth Image Rendering): 파지 가능한 상황을 시뮬레이션하기 위해 가상의 깊이 카메라(Depth Camera)를 사용하여 객체의 깊이 이미지(Depth Image)를 생성한다. 이때 물체는 테이블 위에 안정적으로 놓일 수 있는 포즈(Stable Pose)로 배치된다.
도메인 무작위화 (Domain Randomization): 실제 환경에서의 센서 노이즈와 카메라 위치 오차 등을 모사하기 위해 데이터 생성 과정에 무작위 노이즈를 주입한다. 카메라의 초점 거리, 광학 중심, 그리고 깊이 값에 가우시안 노이즈(Gaussian Noise)를 추가함으로써, 시뮬레이션에서 학습된 모델이 현실 세계(Real World)의 불완전한 센서 데이터에도 강건하게 작동하게 하는 ‘Sim-to-Real’ 전이의 핵심 기제이다.

2.1.2 GQ-CNN (Grasp Quality CNN) 아키텍처

GQ-CNN은 $32 \times 32$ 크기의 깊이 이미지 패치와 그리퍼의 깊이( $z$ ) 정보를 입력받아, 해당 파지의 성공 확률(Robustness Score)을 예측하는 분류기(Classifier) 역할을 한다. 기존의 많은 연구들이 전체 이미지를 입력으로 사용하는 것과 달리, GQ-CNN은 파지 중심점을 기준으로 크롭(Crop)된 로컬 패치를 사용하여 연산 효율성과 일반화 성능을 높였다.

입력: 깊이 이미지 패치 $I$ , 파지 깊이 $z$ . 파지 깊이는 이미지의 중심 픽셀 값과의 차이로 정규화되어 입력된다.
출력: 파지 성공 확률 $Q \in $. 이는 이진 분류(성공/실패) 문제의 소프트맥스(Softmax) 출력으로 해석된다.
구조: 이미지 처리를 위한 합성곱 층(Convolutional Layers)과 파지 파라미터( $z$ ) 처리를 위한 완전 연결 층(Fully Connected Layers)이 병합되는 구조이다. 이미지 특징 벡터와 깊이 정보가 결합(Concatenate)되어 최종적인 파지 품질을 추론한다.

이 모델은 670만 개 이상의 데이터 포인트로 학습되었으며, 이는 당시 존재하는 어떤 파지 데이터셋보다도 방대한 규모였다. Dex-Net 2.0의 GQ-CNN은 훈련에 사용되지 않은 새로운 물체(Novel Objects)에 대해서도 99%의 높은 정밀도(Precision)를 보였으며, 기존의 포인트 클라우드 정합(Registration) 기반 방식보다 3배 더 빠른 속도를 달성했다. 이는 딥러닝 모델이 기하학적 특징(곡률, 엣지 등)과 파지 성공률 사이의 복잡한 비선형 관계를 효과적으로 학습했음을 시사한다.

2.1.3 샘플링 전략: CEM과 엣지 기반 접근

Dex-Net 2.0은 추론(Inference) 단계에서 최적의 파지를 찾기 위해 효율적인 샘플링 전략을 사용한다. 모든 픽셀에 대해 파지 품질을 계산하는 것은 비효율적이기 때문이다.

CEM (Cross-Entropy Method): 파지 후보 분포를 반복적으로 업데이트하며 최적의 파지를 찾는다. 초기에는 이미지 공간에서 균등하게 혹은 엣지 기반으로 후보를 생성하고, GQ-CNN의 평가를 바탕으로 상위 파지들을 선택(Elite Samples)하여 분포(가우시안 혼합 모델 등)를 갱신한다. 이 과정은 수회 반복되며, 단순한 무작위 샘플링보다 훨씬 빠르게 고품질의 파지(Global Optimum)로 수렴하게 한다.
엣지 기반 샘플링: 평면 파지에서는 물체의 경계(Edge) 부분이 파지하기 좋은 지점일 확률이 높다. 따라서 딥러닝 기반 엣지 검출기나 Canny 엣지 검출기를 사용하여 깊이 이미지의 엣지를 추출하고, 그 법선 벡터를 따라 파지 후보를 집중적으로 샘플링함으로써 탐색 효율을 극대화한다.

2.2 Dex-Net 4.0: 이종 그리퍼와 통합 보상 함수

Dex-Net 4.0은 2.0의 성공을 바탕으로, 단일 그리퍼의 한계를 넘어서는 ‘양손잡이(Ambidextrous)’ 로봇을 위한 정책 학습으로 진화했다. 이는 평행 그리퍼(Parallel-jaw)와 흡착형 그리퍼(Suction Cup)를 모두 장착한 로봇이 상황에 따라 적절한 그리퍼를 선택하게 하는 기술이다. 흡착 그리퍼는 평면이 넓은 물체에 유리하고, 평행 그리퍼는 얇거나 복잡한 형상의 물체에 유리하다.

2.2.1 통합 보상 함수 (Unified Reward Function)

Dex-Net 4.0의 가장 큰 이론적 기여는 서로 다른 물리적 메커니즘을 가진 두 그리퍼의 동작을 단일한 보상 체계(Common Reward Function)로 통합한 것이다.

문제 정의: 상태 공간 $S$ 에서 관측 $O$ 가 주어졌을 때, 행동 $a$ (그리퍼 종류 $k$ 및 파지 포즈 $u$ )를 선택하여 예상되는 보상 $R$ 을 최대화한다.
$\pi(O) = \text{argmax}_{(k, u)} Q_k(O, u)$
보상 $R$ : 파지 성공 확률로 정의되며, 이는 물체가 들어 올려진 후 외부 렌치(Wrench)를 견딜 수 있는지 여부(Robust Wrench Resistance)로 판단된다. 흡착 그리퍼의 경우 ‘밀봉(Seal)’ 형성과 진공 유지 능력이, 평행 그리퍼의 경우 마찰 원뿔(Friction Cone) 내의 힘 평형이 기준이 된다.

이 통합 모델 덕분에 Dex-Net 4.0은 단순히 “이 물체를 잡을 수 있는가?“를 넘어, “이 물체를 잡기에 흡착이 유리한가, 집게가 유리한가?“를 판단할 수 있게 되었다. 예를 들어, 표면이 평평하고 넓은 상자는 흡착 그리퍼가, 얇은 가장자리를 가진 접시는 평행 그리퍼가 더 높은 점수를 받게 된다.

2.2.2 힙(Heap) 환경과 빈 피킹(Bin Picking)

Dex-Net 2.0이 주로 흩어져 있는 단일 물체(Singulated Objects)에 집중했다면, Dex-Net 4.0은 물체들이 무질서하게 쌓여 있는 힙(Heap) 환경에서의 빈 피킹 문제를 다룬다. 이를 위해 시뮬레이션 상에서 다수의 물체를 물리 엔진으로 떨어뜨려 힙을 형성하고, 500만 개의 합성 이미지와 파지 데이터를 생성하여 학습했다.

물리 로봇 실험에서 Dex-Net 4.0 모델은 시간당 300회 이상의 피킹 속도(Mean Picks Per Hour, MPPH)와 95% 이상의 신뢰도를 달성했다. 특히 최대 25개의 새로운 물체가 섞여 있는 빈을 비우는 작업(Clearance Task)에서 일관된 성능을 보였으며, 이는 Dex-Net 시리즈가 단순한 학술적 연구를 넘어 산업 현장의 물류 자동화에 직접적으로 기여할 수 있는 수준임을 입증한 것이다.

2.3 Dex-Net의 한계와 과제

Dex-Net 시리즈는 합성 데이터를 이용한 딥러닝 파지의 효시로서 큰 성공을 거두었지만, 여전히 평면 파지(Planar Grasping) 라는 기하학적 제약 안에 머물러 있었다. 4.0 버전에서도 그리퍼는 수직으로 내려오며( $z$ 축 접근), 물체의 측면을 잡기 위해 손목을 비트는 6-DoF 동작은 제한적이었다. 복잡한 형상의 물체가 얽혀 있거나, 특정 방향으로만 접근 가능한 좁은 공간(Shelf Bin 등)에서는 이러한 2.5D 접근법이 한계에 부딪힐 수밖에 없다. 이에 따라 연구의 흐름은 필연적으로 완전한 3차원 공간, 즉 6-DoF 파지로 이동하게 된다.

3. 6-DoF 공간의 생성적 접근: 6-DOF GraspNet

Dex-Net이 ‘분류(Classification)’ 문제로 파지에 접근했다면(후보군을 주고 점수를 매김), NVIDIA의 Arsalan Mousavian 등이 제안한 6-DOF GraspNet은 파지를 ‘생성(Generation)’ 문제로 재정의했다. 이 연구는 6자유도 파지 포즈를 효율적으로 탐색하기 위해 변이형 오토인코더(Variational Auto-Encoder, VAE)를 도입한 것이 특징이다. 이는 파지 후보를 무작위로 샘플링하고 평가하는 기존의 방식(예: GPD)이 가지는 비효율성을 극복하기 위함이다.

3.1 VAE 기반의 파지 샘플러 (Grasp Sampler)

6-DOF GraspNet의 핵심 아이디어는 물체의 포인트 클라우드를 입력받아, 파지 가능한 다양한 포즈의 분포를 잠재 공간(Latent Space)에 매핑하는 것이다.

인코더(Encoder): 학습 시에만 사용되며, 물체의 포인트 클라우드 $X$ 와 정답 파지 포즈(Ground Truth Grasp) $g$ 를 입력받아 잠재 벡터 $z$ 의 분포 $Q(z \vert X, g)$ 를 학습한다. 이는 파지의 다양성을 저차원 잠재 공간에 압축하는 과정이다.
디코더(Decoder): 잠재 벡터 $z$ 와 물체 포인트 클라우드 $X$ 를 받아 파지 포즈 $\hat{g}$ 를 재구성(Reconstruct)한다.

추론(Inference) 시에는 인코더 없이, 표준 정규 분포 $N(0, I)$ 에서 샘플링한 잠재 벡터 $z$ 와 관측된 포인트 클라우드를 디코더에 입력하여 다양한 파지 후보를 생성(Sampling)한다. 이는 $SE(3)$ 공간 전체를 무작위로 탐색하는 것보다 훨씬 효율적이며, 학습된 데이터 분포를 따르는 유효한 파지 후보들을 밀도 있게 생성할 수 있다. 특히 컵의 손잡이와 같이 기하학적으로 복잡한 부분에 대해서도 VAE는 유효한 파지 포즈를 생성하는 데 탁월한 성능을 보인다.

3.2 파지 평가 및 반복적 정제 (Grasp Evaluator & Refinement)

생성된 파지 후보들이 모두 완벽할 수는 없다. VAE의 특성상 약간의 오차가 발생할 수 있고, 시뮬레이션과 현실 간의 차이로 인해 미세한 조정이 필요할 수 있다. 따라서 6-DOF GraspNet은 생성된 파지를 평가하고 미세 조정하는 별도의 네트워크(Grasp Evaluator)를 사용한다.

파지 평가기(Grasp Evaluator): 생성된 파지 $g$ 와 포인트 클라우드 $X$ 를 입력받아 파지 성공 확률 $S(g, X)$ 를 예측한다. 이 네트워크는 Dex-Net의 GQ-CNN과 유사하지만, 6-DoF 포즈를 처리한다는 점에서 차이가 있다.
반복적 정제(Iterative Refinement): 이 부분이 6-DOF GraspNet의 백미이다. 평가 네트워크는 미분 가능(Differentiable)하므로, 파지 성공 확률을 높이는 방향으로 파지 포즈 $g$ 를 업데이트할 수 있다.
$g_{new} = g + \alpha \nabla_g S(g, X)$
이 과정은 일종의 경사 상승법(Gradient Ascent)으로, 초기 샘플링된 파지가 물체와 충돌하거나 너무 멀리 있을 때, 이를 물체 표면의 최적 파지점으로 ‘끌어당기는’ 역할을 한다. 랑주뱅 동역학(Langevin Dynamics)과 유사하게, 이 과정은 에너지(여기서는 파지 성공률의 역수)를 최소화하는 방향으로 파지를 이동시킨다. 메트로폴리스-헤이스팅스(Metropolis-Hastings) 샘플링을 결합하여 국소 최적해(Local Optima)에 빠지는 것을 방지하고 파지의 다양성을 유지하기도 한다.

3.3 성과 및 의의

6-DOF GraspNet은 시뮬레이션에서만 학습되었음에도 불구하고, 실제 로봇 실험에서 88%의 높은 성공률을 기록했다. 특히 기존의 GPD(Grasp Pose Detection) 방법론이 47%의 성공률에 머물렀던 것과 비교하면 비약적인 성능 향상이다. GPD와 같은 휴리스틱 기반 샘플링은 복잡한 물체(예: 머그컵)의 얇은 부분에 대한 파지 후보를 생성하는 데 실패하는 경우가 많았으나, VAE 기반 접근은 이러한 기하학적 특징을 잠재 공간에서 잘 포착했다. 이는 6-DoF 파지 문제에서 생성 모델(Generative Model) 의 유용성을 입증한 사례로, 이후 확산 모델(Diffusion Model)을 이용한 파지 생성 연구(GraspLDM, DexDiff 등)의 토대가 되었다.

4. 데이터 규모의 혁명: GraspNet-1Billion

Dex-Net이 합성 데이터의 가능성을 열었고 6-DOF GraspNet이 생성 모델의 길을 제시했다면, 상하이 교통대의 GraspNet-1Billion은 데이터의 ’규모(Scale)’와 ’현실성(Reality)’으로 파지 연구의 판도를 뒤흔들었다. 컴퓨터 비전 분야의 ImageNet과 같은 역할을 자임하며 등장한 이 데이터셋은 이름 그대로 10억 개 이상의 파지 포즈를 포함한다.

4.1 데이터셋: 합성에서 리얼 월드로

Dex-Net의 가장 큰 약점은 시뮬레이션과 현실 사이의 ’도메인 격차(Domain Gap)’였다. 아무리 도메인 무작위화를 잘 수행하더라도, 실제 깊이 센서(Depth Sensor)가 가지는 고유한 노이즈 패턴과 물체의 재질에 따른 반사 특성 등을 완벽하게 모사하기는 어렵다. GraspNet-1Billion은 이를 해결하기 위해 실제 환경에서 데이터를 수집하는 정공법을 택했다.

수집 장비: Kinect Azure와 RealSense D435와 같은 상용 RGB-D 카메라를 사용하여 데이터의 범용성을 높였다. 로봇 팔에 카메라를 장착하여 미리 정의된 궤적을 따라 움직이며 256개의 다양한 시점에서 데이터를 획득했다.
규모: 190개의 복잡한 씬(Cluttered Scene), 88개의 다양한 물체(Dex-Net의 적대적 물체 13개, YCB 물체 32개, 자체 수집 물체 43개), 97,280장의 이미지를 포함한다.
고밀도 주석(Dense Annotations): 각 이미지마다 물체의 6D 포즈뿐만 아니라, 분석적 계산(Analytic Computation) 을 통해 검증된 11억 개 이상의 6-DoF 파지 포즈가 라벨링되어 있다. 이는 각 씬당 300만~900만 개의 파지 포즈를 포함하는 것으로, 기존 데이터셋 대비 500배 이상 큰 규모이다.

여기서 주목할 점은 ’실제 이미지’에 ’분석적 라벨’을 결합했다는 점이다. 실제 환경에서 로봇이 11억 번 파지를 시도하는 것은 물리적으로 불가능하다. 따라서 연구진은 실제 물체의 3D 모델과 포즈를 정확히 정합한 후, 시뮬레이션 상에서 마찰 계수( $\mu$ ) 등을 고려한 힘 닫힘(Force Closure) 조건을 계산하여 파지 성공 여부를 판별했다. 이는 리얼 월드 데이터의 시각적 복잡성과 시뮬레이션 라벨링의 확장성을 동시에 취한 영리한 전략이다.

4.2 베이스라인 네트워크: 종단간(End-to-End) 파지 검출

GraspNet-1Billion 연구진은 방대한 데이터를 활용할 수 있는 베이스라인 모델을 제안했다. 이 모델은 포인트 클라우드를 입력으로 받아 6-DoF 파지 포즈를 직접 회귀(Regression)하는 종단간 구조를 가진다.

4.2.1 아키텍처 및 분리된(Decoupled) 학습

베이스라인 모델은 PointNet++를 백본(Backbone)으로 사용하여 포인트 클라우드의 지역적(Local) 및 전역적(Global) 특징(Feature)을 추출한다. 포인트 클라우드 처리의 특성상 순서 불변성(Permutation Invariance)을 유지하면서 기하학적 특징을 학습하는 것이 중요하다. 추출된 특징은 이후 세 개의 분리된 헤드(Head)로 전달되어 파지 포즈를 결정하는 요소를 서로 분리하여(Decoupled) 학습한다.

접근 방향(Approaching Direction): 그리퍼가 물체에 다가가는 단위 벡터. 이를 연속적인 공간에서 직접 회귀하는 대신, 미리 정의된 뷰포인트(Viewpoint)로 이산화(Discretize)하여 분류 문제로 풀거나, 뷰포인트 내에서의 오프셋을 회귀하는 방식을 결합한다.
작업 파라미터(Operation Parameters): 접근 방향이 정해진 상태에서의 인플레인 회전(In-plane rotation), 그리퍼 폭(Width), 깊이(Depth) 등을 의미한다. 이는 접근 방향을 기준으로 한 로컬 좌표계에서의 세부 조정이다.
파지 점수(Grasp Score): 해당 설정에서의 파지 성공 확률.

이러한 분리(Decoupling)는 $SE(3)$ 공간의 복잡성을 낮추고 네트워크가 각 기하학적 요소의 특징을 더 잘 학습하게 돕는다. 예를 들어, 접근 방향은 물체의 전반적인 형상에 의존하고, 파지 폭은 국소적인 표면의 두께에 의존하므로, 이를 분리하여 학습하는 것이 효율적이다. 또한, 파지 친화도 필드(Grasp Affinity Field) 라는 개념을 도입하여, 파지 가능한 지점 주변의 공간적 일관성을 학습하고 노이즈에 대한 강건함을 높였다.

4.3 평가 지표: 해석적 파지 지표 (Analytic Grasp Metric)

GraspNet-1Billion은 단순히 IoU(Intersection over Union) 등으로 파지를 평가하지 않고, 물리적 안정성을 기반으로 한 $AP_{\mu}$ (Average Precision regarding friction $\mu$ ) 지표를 도입했다.

$AP_{\mu}$ : 마찰 계수 $\mu$ 가 주어졌을 때, 상위 $k$ 개의 파지 중 실제로 힘 닫힘(Force Closure) 조건을 만족하는 비율을 계산한다. $\mu$ 를 0.2에서 1.2까지 변화시키며 평균을 내어, 다양한 마찰 조건에서도 강건한 파지 성능을 평가한다. 낮은 마찰 계수에서도 성공하는 파지는 그만큼 기하학적으로 완벽하게 물체를 구속(Constraint)하고 있음을 의미한다.

이러한 엄밀한 평가 체계는 이후 AnyGrasp와 같은 인간 수준(Human-level)의 파지 능력을 보여주는 후속 연구들의 벤치마크가 되었다. AnyGrasp는 GraspNet-1Billion 데이터를 기반으로 학습되어, 정돈되지 않은 환경에서도 강체와 변형체 모두에 대해 높은 파지 성공률을 달성했다.

5. 비교 분석 및 기술적 통찰

세 가지 핵심 기술(Dex-Net, 6-DOF GraspNet, GraspNet-1Billion)을 비교 분석하면 로봇 파지 기술의 진화 방향을 명확히 알 수 있다. 아래 표는 각 기술의 핵심 특징을 요약한 것이다.

특징	Dex-Net 2.0 / 4.0	6-DOF GraspNet	GraspNet-1Billion
파지 차원	2.5D (평면 파지, 4-DoF)	6-DoF ( $SE(3)$ 공간)	6-DoF ( $SE(3)$ 공간)
데이터 원천	100% 합성 (Simulation)	합성 (Simulation)	실제 (Real-World) + 분석적 라벨
데이터 규모	~6.7M (2.0), ~5M (4.0)	(절차적 생성)	1.1 Billion (11억 개)
학습 모델	GQ-CNN (Discriminative)	VAE (Generative)	PointNet++ (End-to-End)
주요 기여	합성 데이터 & 도메인 무작위화	생성 모델 & 반복적 정제	대규모 벤치마크 & 리얼 월드 적응
한계점	접근 방향 제한 (Top-down)	시뮬레이션 의존성	데이터 구축 비용 (장비, 시간)

5.1 심층 통찰: 데이터와 모델의 공진화

이 기술들의 흐름에서 발견할 수 있는 중요한 통찰은 다음과 같다.

차원의 저주와 생성 모델: 평면 파지(Dex-Net)에서는 탐색 공간이 비교적 작아(이미지 픽셀 수 $\times$ 깊이), 분류 모델(Discriminator)과 샘플링(CEM)만으로도 최적해를 찾을 수 있었다. 그러나 6-DoF로 넘어가면서 탐색 공간이 기하급수적으로 커졌고, 이에 따라 좋은 파지를 직접 ’생성’해내는 생성 모델(VAE)의 필요성이 대두되었다. 최근에는 VAE를 넘어 확산 모델(Diffusion Model)을 사용하여 파지 포즈 분포를 더욱 정밀하게 모델링하는 연구(GraspLDM 등)로 이어지고 있다.
Sim-to-Real의 완성: Dex-Net은 시뮬레이션 데이터를 현실에 적용하기 위해 노이즈를 추가하는 방식(Domain Randomization)을 썼다. 반면, GraspNet-1Billion은 아예 실제 데이터를 대량으로 구축하여 ’Visual Domain Gap’을 원천적으로 제거하려 했다. 이는 최근의 파운데이션 모델(Foundation Model)들이 거대 실제 데이터를 학습하는 추세와 일치한다. 하지만 실제 데이터 구축 비용이 막대하기 때문에, 여전히 시뮬레이션 데이터와 실제 데이터를 혼합(Hybrid)하거나, Sim-to-Real 기술을 고도화하는 노력은 계속되고 있다.
물리학과 딥러닝의 결합: 세 연구 모두 순수하게 인간의 라벨링에 의존하지 않았다. 사람이 수십억 개의 파지 포즈를 라벨링하는 것은 불가능하다. Dex-Net과 GraspNet-1Billion 모두 ‘Force Closure’ 와 같은 고전 역학 이론을 딥러닝의 라벨 생성기(Oracle)로 활용했다. 이는 로봇 학습(Robot Learning)에서 물리학적 선험 지식(Prior)이 여전히 중요한 역할을 하며, 데이터 기반 학습과 물리 기반 모델링이 상호 보완적으로 작용함을 시사한다.

6. 결론: 파지 지능의 미래

“2D 평면 파지에서 6-DoF 파지로“의 여정은 로봇이 세상을 평면적인 이미지(Image)가 아닌, 깊이와 부피를 가진 공간(Space)으로 이해하기 시작했음을 의미한다. Dex-Net이 데이터 기반 파지의 가능성을 증명했다면, 6-DOF GraspNet은 생성적 접근을 통해 복잡한 형상에 대응했고, GraspNet-1Billion은 압도적인 데이터 규모로 일반화 성능을 끌어올렸다.

이제 파지 기술은 정적인 환경을 넘어, 움직이는 물체를 잡거나(Dynamic Grasping), 언어 명령을 이해하여 특정 물체를 잡는(Semantic Grasping) 방향으로 나아가고 있다. 또한, NeRF(Neural Radiance Fields)나 3D Gaussian Splatting과 같은 최신 3D 표현 기술이 파지 연구와 결합되면서(NeuGraspNet 등), 가려진 부분(Occlusion)을 상상하고 파지하는 능력도 향상되고 있다. 하지만 이 모든 최신 기술의 근간에는 본 절에서 다룬 기하학적 이해와 데이터 처리 파이프라인의 혁신이 자리 잡고 있다. 로봇이 인간처럼 능숙하게 도구를 쥐고 사용하는 그날까지, 이 6-DoF 파지 기술들은 계속해서 진화하고 확장될 것이다.

7. 참고 자료

Learning 6-DOF Grasp Policies for Cluttered Environments Using a …, https://ntrs.nasa.gov/api/citations/20250002252/downloads/Sim_Grasp_final_1.pdf
Contact-graspnet: Efficient 6-dof grasp generation in cluttered scenes, https://elib.dlr.de/145798/1/Contact-GraspNet.pdf
Dex-Net by BerkeleyAutomation - Berkeley Automation Lab, http://berkeleyautomation.github.io/dex-net/
Dex-Net by BerkeleyAutomation - Berkeley Automation Lab, https://berkeleyautomation.github.io/dex-net/
GraspNet-1Billion Benchmark Overview - Emergent Mind, https://www.emergentmind.com/topics/graspnet-1billion-benchmark
(PDF) Dex-Net 2.0: Deep Learning to Plan Robust Grasps with …, https://www.researchgate.net/publication/315682763_Dex-Net_20_Deep_Learning_to_Plan_Robust_Grasps_with_Synthetic_Point_Clouds_and_Analytic_Grasp_Metrics
GraspNet-1Billion: A Large-Scale Benchmark for General Object …, https://openaccess.thecvf.com/content_CVPR_2020/papers/Fang_GraspNet-1Billion_A_Large-Scale_Benchmark_for_General_Object_Grasping_CVPR_2020_paper.pdf
Dex-Net 2.0: Deep Learning to Plan Robust Grasps with Synthetic …, https://arxiv.org/abs/1703.09312
Releasing the Dexterity Network (Dex-Net) 2.0 Dataset for Deep …, https://bair.berkeley.edu/blog/2017/06/27/dexnet-2.0/
Dex-Net 2.0: Deep Learning to Plan Robust Grasps with Synthetic …, https://roboticsproceedings.org/rss13/p58.pdf
Dex-Net 2.0: Deep Learning to Plan Robust Grasps, https://kevinzakka.github.io/2018/11/05/dexnet/
Attention-Based Point Cloud Edge Sampling - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2023/papers/Wu_Attention-Based_Point_Cloud_Edge_Sampling_CVPR_2023_paper.pdf
Dex-Net 2.0: Deep Learning to Plan Robust Grasps with Synthetic …, https://www.roboticsproceedings.org/rss13/p58.pdf
Learning Robotic Grasping Policies for Suction Cups and Parallel …, https://www2.eecs.berkeley.edu/Pubs/TechRpts/2019/EECS-2019-119.pdf
Learning ambidextrous robot grasping policies - Ken Goldberg, https://goldberg.berkeley.edu/pubs/Ambidextrous-Grasping-Science-Robotics-Jan-2019.pdf
Learning Ambidextrous Robot Grasping Policies | Ambi Robotics Inc., https://www.ambirobotics.com/media/ambidextrous-robot-grasping-policies/
6-DOF GraspNet: Variational Grasp Generation for Object …, https://research.nvidia.com/publication/2019-10_6-dof-graspnet-variational-grasp-generation-object-manipulation
[paper-review] 6-DOF GraspNet: Variational Grasp Generation for …, https://joonhyung-lee.github.io/blog/2023/6dof-graspnet/
6-DOF GraspNet: Variational Grasp Generation for Object …, https://openaccess.thecvf.com/content_ICCV_2019/papers/Mousavian_6-DOF_GraspNet_Variational_Grasp_Generation_for_Object_Manipulation_ICCV_2019_paper.pdf
6-DOF GraspNet: Variational Grasp Generation for Object … - Liner, https://liner.com/review/6dof-graspnet-variational-grasp-generation-for-object-manipulation
Gradient of Langevin Dynamics Step w.r.t model parameters [D], https://www.reddit.com/r/MachineLearning/comments/16p3kxz/gradient_of_langevin_dynamics_step_wrt_model/
NVlabs/6dof-graspnet: Implementation of 6-DoF … - GitHub, https://github.com/NVlabs/6dof-graspnet
GraspGen: A Diffusion-based Framework for 6-DOF Grasping … - arXiv, https://arxiv.org/html/2507.13097v1
[PDF] 6-DOF GraspNet: Variational Grasp Generation for Object …, https://www.semanticscholar.org/paper/6-DOF-GraspNet%3A-Variational-Grasp-Generation-for-Mousavian-Eppner/e5fecefe78932654e4cbdfe828bb45cd1e09009e
GraspNet通用物体抓取, https://graspnet.net/
A Dynamic Scene Reconstruction Pipeline for 6-DoF Robotic … - arXiv, https://arxiv.org/html/2404.03462v1
Simultaneous Semantic and Collision Learning for 6-DoF Grasp …, https://arxiv.org/pdf/2108.02425
A Large-Scale Benchmark for General Object Grasping - IEEE Xplore, https://ieeexplore.ieee.org/document/9156992/
6-DoF Grasp Detection in Clutter with Enhanced Receptive Field …, https://arxiv.org/html/2407.01209v2
Generative 6-DoF Grasp Synthesis Using Latent Diffusion Models, https://ieeexplore.ieee.org/iel8/6287639/10380310/10744565.pdf
Generative 6-DoF Grasp Synthesis using Latent Diffusion Models, https://orbilu.uni.lu/bitstream/10993/63367/1/2312.11243v2.pdf
Learning Any-View 6DoF Robotic Grasping in Cluttered Scenes via …, https://arxiv.org/html/2306.07392v4